Featuring Engineering

En lo siguiente se elabora una serie de gráficos desde el archivo 1, trabajando con el 99% de los datos para disminuir el impacto de outlier en el análisis. Comenzando con la gráfica de Número de Trabajadores y Ventas para cada uno de los tramos.

A partir de la representación anterior, que considera el período más cercano a la fecha actual, podemos establecer que aproximadamente el 50% de los trabajadores pertenece al sector laboral correspondiente a mipymes, sin embargo, al observar las Ventas obtenidas por cada tramo tan solo manifiesta un 15%. En consecuencia, la productividad laboral del sector mipymes es sustancialmente inferior a la gran empresa. Conforme a lo anterior, gran parte de la motivación de esta etapa de análisis, se enfocará en esclarecer el panorama de productividad mipymes.

La siguiente gráfica muestra la distribución de la productividad laboral desde 2005 a 2018:

La asimetría positiva de la distribución anterior, refleja el hecho que muchos datos de productividad están bajo el promedio nacional de productividad, más aún el 50% marca una medición de 805. En términos concretos ¿Qué significa esta medida? Para ello, nos concentraremos en primera instancia a la media de la distribución que marca 1202.6 y luego nos abocaremos a la mediana. La media de esta distribución corresponde a que cada trabajadador durante 2005 a 2018, generó en promedio 1.202 UF en ventas, en consecuencia, la productividad del 50% de los trabajadores tiene un nivel de productividad de 805 UF. En lo se

A continuación, se presenta la siguiente gráfica que representa la distribución para cada tipo de empresa, donde justamente se aprecia que este efecto del 50% corresponde en gran medida al sector mipymes.

Esta representación aclara el panorama mipymes, ya que, todos estos sectores están bajo la media de productividad nacional de 1202, micro:609, pequeña:701 y mediana:873

Para cada registro, se extrae la cantidad de empresas, ventas y trabajadores, obteniendose:

El hecho de no mostrar la graduación en la dimensión del eje Y, es debido a que corresponde a la densidad de probabilidad y para nuestro interés no representa mayor relevancia, sino observar la forma y extraer inferencia no a través de este hecho. En lo que sigue, medimos la productividad promedio para cada año desde 2005 hasta 2018 versus cada tramo, cruzando además la productividad promedio nacional durante este intervalo.

Algunos alcances a mencionar bajo este último esquema, es que la productividad laboral de la gran empresa, respecto de una micro empresa puede llegar a ser hasta tres veces superior. Por otro lado, la tendencia al alza de la productividad para cualquier segmento ha sido interrumpida de 2016 a 2017. Teniendo este panorama preliminar, desde este punto en adelante, sólo se estudiará variables en función de mipymes.

Haciendo enfásis en sector mipyme por año:

El segmento menos productivdo para cualquier periodo de años ha sido la micro empresa. Recordar que la productividad definida en esta investigación, se genera a partir de dos factores que corresponde a la venta y la cantidad de trabajadores, es decir que para establecer alguna causal de productividad hay que exponer ambos factores.

Para entender lo que ha sucedido como ha ido cambiando la productividad laboral Mipymes desde 2005 hasta 2018, se hace necesario mostrar como ha variado este indicador para cada segmento. La siguiente representación gráfica, muestra los cambios que se producen con respecto al año anterior.

Productividad por Rubro

La siguiente representación, se obtiene desde el segundo archivo, que contiene la data acerca del segmento y rubro, a saber:

Los rubros menos productivos, se relacionan con Administración, Enseñanza, Áreas Recreativas; la siguen áreas asociadas a agricultura, alojamiento, construcción y otros servicios. En cambio, los rubros de mayor productividad, corresponden al comercio, Finanzas e inmobiliaria. Para inferir mejor acerca de la productividad, se graficará la cantidad de trabajadores y ventas del año 2018.

El hecho de que en agricultura y construcción haya baja productividad laboral, se debe a la gran cantidad de trajadores en estas áreas.

Del gráfico anterior, claramente comercio es el área con mayor venta, y por lo tanto se relaciona a su mayor productividad en el tramo de las mipymes.

Ventas por Rubro y Sexo

Micro Empresa

Pequeña Empresa

Mediana Empresa

Productividad por Región

Los siguientes boxplot, representan la distribución intercuartil de la productividad a nivel de regiones, para mayor comprensión se ordenaron de manera creciente a partir de la mediana.

La regiones con menor productividad (al menos desde la mediana) corresponden a las regiones de Ohiggins, Arica y Valparaíso. Y las de mayor productividad corresponden a Antofagasta, Ñuble y Araucanía. Más adelante, se corroborará con un heatmap para la productividad regional.

Productividad - Tramo - Sexo

Parece contradictorio que a mayor cantidad de trabajadores masculinos o femeninos hay mayor venta, sin embargo es menor la productividad. Este hecho, resulta evidente desde la definicion de productividad como cociente entre venta y trabajador. Más bien, parece interesante, que las trabajadoras femeninas de la micro igualan a las de pequeñas empresas en cuanto a la relación con las ventas. Observando a trabajadores masculinos versus ventas, la pequeña empresa es evidente la relación directa entre ambas. La micro empresa, registra una mayor sensibilidad al momento de relacionar ventas con productividad. Finalmente, señalar como aparece en la gráfica que relaciona a mayor cantidad de trabajadores masculinos tambien existe una mayor cantidad de trabajadoras femeninas.

Distribución por sexo en mipymes Período 2018

Profundizando acerca de la cantidad de trabajadoras femeninas y masculinos en los distintos tramos. Se expresa a través de los siguientes gráficos de violín, que alberga la densidad de registros similares.

Una interpretación pertinente, es señalar que bajo la perspectiva de las mipymes, hay una mayor cantidad de registros concentrados con una menor cantidad trabajadoras femeninas que masculinos para cualquier segmento empresarial.

Correlaciones

El coeficiente (r) de correlación de Pearson es una medida estadística de la fuerza de un lineal relación entre datos emparejados.

$ -1

No es excluyente para variables cualitativas, ya que podemos aplicar una función que permita codificarlas de manera ordinal. De esta manera, se agruparon:

  • Rubro
  • Venta_UF
  • N_trabajadores
  • Renta_trab_fem
  • Renta_trab_masc
  • Productividad

Para mejorar la comprensión de coeficiente de correlación en las siguientes matrices, se ha considerado solo mostrar aquellos que:

- Micro Empresa

En términos generales no existen altas correlaciones negativas, y es posible destacar que una alta correlación positiva entre la variable:

- Pequeña Empresa

Análogamente, para la pequeña empresa, se obtiene alta correlación entre:

- Mediana Empresa

En cuanto a la mediana empresa, se obtiene alta correlación entre:

Geolocalización

Productividad Nacional

Cruzando la data del archivo 1 y el mapa SHP de Chile Regional, se pudo generar el siguiente mapa de calor para la productividad a nivel regional de mipymes. Las regiones de mayor productividad están hacia el rojo oscuro

Este mapa utilizó el intervalo desde 2005 a 2018 excluyendo a las grandes empresas, cabe descatar que Tarapacá, Antofagasta y RM_Santiago están sobre la media de productividad laboral mipymes, que corresponde a 770.9 .

A continuación se mostrará a través de cada segmento mipymes.

Mapa Productividad por Tipo Empresa

Al separar las tipos de empresas del sector mipymes, podemos señalar que:

En efecto, el resto de las Regiones no mencionadas, están bajo la media de productivdad laboral mipymes.

Productividad Región Metropolitana

Profundizando, este análisis hacia región Metropolitana, y considerando inicialmente la gran empresa, se tiene:

Al observar la figura anterior, cuyo intervalo en años que abarca la consulta desde 2005 a 2018, arroja a Lo Barnechea como la comuna con mayor productividad laboral mipymes a nivel de region Metropolitana, seguida de Pedro Aguirre Cerda(PAC) y Las Condes.

Los sectores oscuros representan mayor productividad, además se observa una similitud de colores para la productividad laboral de la micro empresa en el Gran Santiago, no obstante, es interesante observar la baja productividad la comuna de Santiago y también providencia. Aunque, una razón de peso es la cantidad sustancial de trabajadores que hay en estas comunas, respecto de las otras y que baja considerablemente la productividad.

Por otra parte, Lo espejo es la comuna se muestra con la mayor productividad en el tramo de micro Empresa, seguido de Lo Barnechea, Lo Prado y Pedro Aguirre Cerda(PAC), recordar que en lo Espejo se encuentra el terminal pesquero y en Pedro Aguirre Cerda está el Abastecimiento Lo Valledor.

Conclusión Featuring Engineering

Machine Learning

Machine Learning (ML) se define como el uso de algorítmos y estadísticas computacionales para aprender de los datos. El ascenso en el aprendizaje automático hoy en día ha sido habilitado por la abundancia de datos, un almacenamiento de datos más eficiente y computadoras más rápidas.Dependiendo de lo que esté tratando de lograr, hay muchas maneras diferentes de hacer que una computadora aprenda de los datos. Estas diversas formas se pueden clasificar en dos subsecciones principales del aprendizaje automático: aprendizaje supervisado, aprendizaje no supervisado.

APRENDIZAJE SUPERVISADO: Este algorítmo toma datos etiquetados y crea un modelo que puede hacer predicciones a partir de datos nuevos. Estos pueden ser un problema de clasificación o un problema de regresión. En un problema de clasificación, puede haber datos de prueba que consisten en fotos de animales, cada uno etiquetado con su nombre correspondiente. El modelo sería entrenado en estos datos de prueba y luego se usaría para clasificar fotos de animales sin etiquetar con el nombre correcto. En un problema de regresión, hay una relación que intenta determinarse entre muchas variables diferentes. Por lo general, esto tiene lugar en forma de datos históricos que se utilizan para predecir cantidades futuras. Un ejemplo de esto sería predecir el precio futuro de una acción en función de los movimientos de precios pasados.

APRENDIZAJE NO SUPERVISADO: Esta técnica se utiliza cuando el modelo de aprendizaje profundo recibe el conjunto de datos sin instrucciones explícitas, es decir, qué hacer con él. Luego, el modelo intenta encontrar automáticamente la estructura en los datos extrayendo las características y analizando la estructura. Puede organizar los datos de varias maneras, como agrupación, detección de anomalías, asociación, codificadores automáticos.

En lo que sigue para esta demo se mostrará un ejemplo de Cluster y Regresión.

El objetivo de esta demostración en Machine Learning, es mejorar la comprensión de los aspectos esenciales que comprenden la productividad mipymes. Con ello, el primer acercamiento es agrupar los rubros que tengan características similares de productividad. Por tanto, se aplicará un modelo no supervisado de cluster y luego inferir acerca de que rubros tienen características similares cuando los relacionamos los componentes de ventas y Trabajadores (variables que definen la productividad) de una empresa Mipymes.

Clustering

Inspección de Variables

Identificación de Cluster mediante Elbow Method

Este método sugiere relaciona dos parámetros para determinar el número de cluster o agrupaciones a los datos:

Para determinar el número óptimo de grupos, tenemos que seleccionar el valor de k en el "elbow", es decir, el punto después del cual la distorsión / inercia comienza a disminuir de manera lineal. Por lo tanto, para los datos dados que se gráfica más abajo, se concluye que el número óptimo de grupos para los datos es 4.

N° Cluster encontrados: 4

Silhouette Coefficient

Para confirmar el hallazgo anterior de 4 cluster para la cantidad de agrupaciones que encuentra Kmeans para ventas y cantidad de trabajadores, se aplicará mean Silhouette Coefficient .

Mean Silhouette Coefficient calcula la distancia media dentro del grupo (a) y la distancia media más cercana al grupo (b) para cada muestra.

Se calcula Silhouette Coefficient para una muestra como:

S=

Para aclarar, b es la distancia entre una muestra y el grupo más cercano del que la muestra no forma parte. Esta función retorna el coeficiente de silueta medio sobre todas las muestras.

El mejor valor es 1 y el peor valor es -1. Los valores cercanos a 0 indican grupos superpuestos.

Los valores negativos generalmente indican que se ha asignado una muestra al grupo incorrecto, ya que un grupo diferente es más similar.

De lo anterior, como el silhoutte score promedio obtenido fue levemente el más alto. Por lo tanto, y a raíz de los dos métodos empleado para tener mayor certeza en las agrupaciones se utilizará el parámetro n_cluster=4. Notar que para n_cluster>2, la agrupación única "verde", su silhoutte score es cero y por lo tanto, no aparece en la gráfica de barra.

Identificación de Rubros en Cluster

Gráfico de Clusters Micro Empresa utilizando Centroides

Cluster por Rubros

Considerando el análisis previo, por ejemplo el conseguido en la matriz de correlaciones, se conocía la alta correlación entre comercio y productividad, como también características comunes entre los rubros de Construcción y Agricultura.

El modelo cluster, considera que el Rubro de comercio no se asemeja a ninguno de sus pares cuando lo relacionamos con venta y trabajadores. Una de las razones es la cantidad de ventas que superan en creces al resto de los rubros(Ver gráfico Ventas vs Rubros).

Pequeña Empresa

Se observan diferencias de agrupaciones, respecto de la microEmpresa. Por ejemplo, Enseñanza y Administración cambian de cluster y se mantienen Agricultura y Construcción juntos.

Mediana Empresa

El rubro servicios de Apoyo, cambia de cluster. Finalmente, señalar que comercio es un área que persiste como un sector que se agrupa similar y diferente de los demás sectores, independiente del tramo de empresa.

Regresión

Se obtuvo:

< 0 (es negativo) solo cuando el modelo elegido no sigue la tendencia de los datos, por lo que se ajusta peor que una línea horizontal(underfit).

Y para grados mayores a tres se corre el riesgo de sobreajuste. Algunas ideas para reducir el sobreajuste:

Considerando, las gráficas anteriores, el que entrega mejor desempeño es de polinomio grado 3, cuyo rmse es 12.47, esto recae en una diferencia entre la predicción y la observación real, específicamente como la raíz cuadrada del promedio de las diferencias cuadráticas entre la predicción y la observación real.

Generando un Modelo RandomForestRegressor

Solo para tener otro modelo a comparar, el modelo RandomForestRegression, entrega peores métricas que las realizadas con un polinomio visto anteriormente. Comúnmente, este modelo tiene mejores rendimiento ante dataset con una mayor cantidad de datos.

Por último, señalar que el objetivo de realizar esta regresión era entender la dinámica de la productictidad durante el transcurso de estos 14 años.

¿Qué sigue?

En el aprendizaje estadístico, uno de los temas más importantes es el ajuste y el sobreajuste. Son importantes porque explican el estado de un modelo en función de su rendimiento. La mejor manera de entender estos términos es verlos como una compensación entre el sesgo y la varianza del modelo. El término sobreajuste se refiere a un modelo que se ajusta muy bien a los datos con los que se entrena, pero los generaliza poco, lo que significa que cuando se enfrentan a valores distintos de los del entrenamiento, se predicen con baja precisión. Por otro lado, la falta de adaptación se refiere al estado opuesto, lo que significa que el modelo no se ajusta bien incluso a los datos con los que se entrena. Finalmente, es importante señalar que existe una variedad de modelos para utilizar desde la librería Sklearn, que pueden ser más complejos, aunque corriendo el riesgo de generar overfit en el regresor.

Conclusión Final

Existían conocimientos previos desde featuring engineering de que rubros eran más o menos productivos, con el primer ejemplo de machine learning el objetivo fue agrupar características similares de acuerdo a ventas y trabajadores. Lo que develó el modelo clustering, es que básicamente hay cuatro formas de agrupación para todos los contituyentes mipymes con ligeras variaciones en algunos rubros a la pertenencia dentro de los cluster. Por consiguiente, podemos demostrar que dentro del grupo de las mipymes existen 4 niveles de productividad, aunque para uno de los cuatro cluster, el único elemento contenido es el Comercio. Para avalar esta idea de generar subcategorìas y en cuanto a términos tributarios se refiere existe estas divisiones, basándose en el cálculo de las ventas anuales:

Micro Empresa Pequeña Empresa Mediana Empresa
Subtramos:
  • Micro 1:0,01 UF a 200 UF
  • Micro 2:200.01 UF a 600 UF
  • Micro 3:600.01 UF a 2.400 UF
Subtramos:
  • Pequeña 1:2.400,01 UF a 5.000 UF
  • Pequeña 2:5.000,01 UF a 10.000 UF
  • Pequeña 3:10.000,01 UF a 25.000 UF
Subtramos:
  • Mediana 1:25.000,01 UF a 50.000 UF
  • Mediana 2:50.000,01 UF a 100.000 UF

Si mantenemos la línea de este reporte, se puede establecer a partir de las coordenadas de los centroides, que para clasificar en términos de productividad laboral por rubro según el tramo, se obtuvo:

Niveles de Productividad según tramos
Micro EmpresaPequeña EmpresaMediana Empresa
Productividad 1218424484
Productividad 2734582 973
Productividad 38417141258
Productividad 4187617292141

Por otra parte, el mejor ajuste regresional encontrado fue de grado 3, e indicaría que en los siguientes años la productividad laboral al menos de la micro_empresa caería hasta los 556 UF por trabajador.

Finalmente, gran parte de este trabajo ha sido evidenciar la realidad de la mipymes, sector que representa a la mitad de los trabajadores de Chile, sin embargo, con una productividad baja en comparación a la media nacional y sustancialmente menor a la gran empresa. Es de esta forma, que contribuir a tener un mejor diagnóstico de este sector permitiría tomar acciones que a futuro mejoren este aspecto, y en consecuencia buscar mecanismos que ayuden a gran parte de los trabajadores de este país.

Referencias